Transformer 模型

Transformer 模型最初是在2017年由Google的研究人员在论文《Attention Is All You Need》中提出,主要特点是它完全依赖于注意力机制attention mechanism)。这一机制可以使模型对输入序列的不同位置进行加权,从而更好地捕捉输入序列之间的依赖关系,使模型在处理长序列时更加高效和准确。该模型主要用于自然语言处理NLP)与计算机视觉CV)领域。

循环神经网络RNN)一样,Transformer 模型旨在处理自然语言等顺序输入数据,可应用于翻译、文本摘要等任务。而与 RNN 不同的是,Transformer 模型能够一次性处理所有输入数据。注意力机制可以为输入序列中的任意位置提供上下文。如果输入数据是自然语言,则 Transformer 不必像 RNN 一样一次只处理一个单词,这种架构允许更多的并行计算,并以此减少训练时间。

并行化优势允许其在更大的数据集上进行训练。这也促成了 BERTGPT 等预训练模型的发展。这些系统使用了维基百科、Common Crawl 等大型语料库进行训练,并可以针对特定任务进行微调

Transformer 模型通常由编码器解码器两部分组成。

整体架构

模型图

主题

网络资源


本文作者:Maeiee

本文链接:Transformer 模型

版权声明:如无特别声明,本文即为原创文章,版权归 Maeiee 所有,未经允许不得转载!


喜欢我文章的朋友请随缘打赏,鼓励我创作更多更好的作品!